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摘要 : 人 脸 识别 是 人 工 智能 在 智能 感知 领域 的 一 项 重要 任务 ， 同 时 也 具备 巨大 的 实用 价值 。 
文 回 顾 人 脸 识 别 技术 在 过 去 几 十 年 来 的 发 展 历程 及 主要 成 就 ， 并 对 新 近 发 展 起 来 的 基于 深度 学 
习 的 人 脸 识 别 方法 进行 曾 述 和 讨论 ， 最 后 对 深度 学 习 人 脸 识 别 方法 的 未 来 研究 方向 做 出 展望 。 
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Abstract: Face recognition is an important perception technology of artificial intelligence. Meanwhile, 
it has great practical value. This paper recalls the developments and achievements of face recognition 
technology over the past few decades, summarizes the latest progress of deep learning based methods and 
points out the possible future directions of deep learning based methods. 


Keywords: Face Recognition, Artificial Intelligence 


1 3 引言 


人 工 智 能 是 人 类 长 期 以 来 ELIE RAY 目标 。 如 何 创造 出 智能 的 机 器 Gintelligent machines) , 
以 期 其 能 拥有 知识 (knowledge)， 有 具备 推理 (reasoning)、 计 划 (planning)、 学 习 (learning)、 感 
知 (perception)、 交 流 (communication)、 以 及 移动 和 操纵 物体 的 能 力 (1, p. B, A]. AAT BE 
直 以 来 不 懈 努 力 的 方向 。 人 脸 识 别 [5] 作为 人 工 智能 的 一 项 重要 任务 ， 是 人 工 智 能 技术 在 智能 感 
知 方向 上 的 一 个 重要 领域 。 人 脸 识别 也 有 具备 巨大 的 实用 价值 。 传 统 个 人 身份 鉴别 使 用 ID 卡 和 密 
c 码 等 手段 ， 但 是 极 易 模仿 、 复 制 、 资 窃 ， 系 统 无 法 区 分 实际 使 用 者 ， 难 以 区 分 真正 的 用 户 。 在 这 
= 样 的 背景 下 ， 人 脸 识 别 作为 一 种 有 效 的 生物 特征 识别 技术 ， 为 真正 可 靠 的 身份 鉴定 带 来 了 可 能 
EI 性 咒 。 也 因此 ， 人 脸 识 别 几 十 年 来 一 直 受 到 众多 研究 学 者 的 关注 ， 并 被 广泛 应 用 于 如 视频 监控 、 
= 访问 控制 等 众多 信息 安全 领域 。 

一 个 完整 的 人 脸 识别 系统 主要 包括 五 个 组 成 部 分 ， 如 图 目 ， 分 别 为 : 人 脸 图 像 采集 、 人 脸 检 

测 、 人 脸 图 像 预 处 理 、 人 脸 图 像 特征 提取 以 及 匹配 与 识别 。 但 是 ， 建造 一 个 高 性 能 、 高 鲁 棒 性 的 

动人 脸 识别 系统 却 是 一 个 极其 复杂 和 困难 的 事情 。 实 际 应 用 中 ， 光 照 、 对 比 度 、 拌 动 、 焦 点 、 
模糊 、 遮 挡 、 分 辩 率 、 姿 态 、 表 情 、 噪 声 等 因素 喇 ， 都 会 引起 人 脸面 部 特征 发 生 很 大 改变 。 
各 种 复杂 情况 下 也 能 得 到 人 脸 图 像 的 最 优 描述 ， 研 究 者 们 提出 了 一 系列 的 算 
法 与 理论 

人 脸 识 别 算法 大 致 经 历 了 四 个 阶段 。 第 一 个 阶段 (1964 年 - 1991 年 ) 属于 人 脸 识别 的 起 步 控 
索 阶 段 ， 人 们 使 用 一 些 简单 的 算法 来 初步 尝试 人 脸 的 机 器 自动 识 另 14。 第 二 阶段 (1991 年 — 1998 
年 ) 是 人 脸 识 别 的 快速 发 展 时 期 ， 在 条 件 严 格 控 制 的 人 脸 识别 任务 上 人 们 取得 了 一 些 初步 的 成 果 ， 
也 涌现 出 了 一 些 对 后 一 阶段 极 具 影响 力 的 算法 与 理论 。 第 三 阶段 (1998 年 2014 E) 的 人 脸 识别 
在 上 一 阶段 的 基础 上 ， 针 对 姿态 、 光 照 、 表 情 、 遮 挡 等 外 界 影 响 因 素 ， 提 出 了 一 系列 的 改进 算法 
与 新 的 理论 。 这 一 阶段 ， 人 脸 识别 开始 逐渐 成 熟 ， 一 些 实用 的 系统 开始 诞生 。 然 而 ， 前 三 个 阶段 
的 人 脸 识别 算法 实质 上 大 多 数 都 是 一 种 浅 层 学 习 (shallow learning) 模型 册 咱 ， 这 些 模 型 (如 SVM, 
Boosting 等 ) 的 结构 基本 上 可 以 看 成 一 层 隐 层 节点 。 尽管 浅 层 模型 在 理论 和 应 用 中 都 获得 了 巨大 
成 功 ， 却 存在 着 一 定 的 局 限 性 。 a 它们 表示 复杂 函数 的 能 力 有 限 ， 面 对 复杂 的 分 类 问题 时 模型 
的 泛 化 能 力 受 到 了 一 定 的 制约 YL. DRUG GE TR 4 阶段 (2014 年 - 至今)， 人 脸 识别 的 主流 算法 开 
始 转 为 深度 学 习 pj RES BRUM RUE A 0 Ee 含 节点 的 深度 神经 网 络 (deep neural 
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后 ， 将 提取 到 的 特征 


networks, DNN), 
别 的 高 潮 期 ， 大 量 实用 


脸 识别 进入 了 一 个 新 的 。 
| 面临 的 挑战 和 算法 为 主线 ， 


本 文 将 以 人 脸 识 另 


或 Cascaded CNN [8] 2 
衡 化 等 方法 用 于 人 脸 图 像 预 处 


特征 比 对 
(分 类 器 ) 


识别 结果 输出 


则 到 人 脸 ， 挑 出 有 用 信 ， 
里 。 接 着 ， 构 建 人 脸 特征 


述 模型 


与 数据 库 中 存储 的 特征 模板 进行 搜索 匹配 。 


图 1: 人 脸 识别 系统 的 组 成 。 首 先 ， 通 过 摄像 镜头 等 装置 获取 到 人 脸 图 


昌 。 之 后 ， 光 线 补偿 、 
， 抽 取 人 脸 图 像 的 有 效 特征 。 最 


像 ， 然 后 基于 Adaboost [f] 
灰 度 变换 、 直方 图 均 


而 大 数据 、 大 模型 、 大 计算 则 是 深度 神经 网 络 的 三 大 支柱 。 第 四 阶段 是 人 脸 识 


的 系统 与 成 功 的 应 用 案例 出 现 ， 许 多 新 兴 的 人 脸 识 别 公司 也 开始 诞生 ， 人 


时 代 


程 及 主要 成 就 ， 并 对 新 


习 的 人 脸 识别 的 未 来 看 


2 ”第 = 


究 方 向 做 出 展望 。 


阶段 (1964 Ẹ — 1991 年 ) 


回顾 人 脸 识 


近 发 展 起 来 的 深度 学 习 人 脸 识 别 方法 进行 阐述 和 讨论 ， 


别 技术 在 过 去 几 十 年 来 的 发 展 历 


最 后 对 基于 深度 学 


关于 人 脸 识别 技术 的 研究 可 以 追溯 到 Francis Galton 分 别 于 1888 4 [L3] 和 1910 € [14] £ 


Nature 杂志 上 发 表 的 有 关 如 何 利 | 
了 人 类 自身 识别 人 脸 的 能 力 。 但 真正 意义 上 的 人 脸 识别 上 
[15] 在 Panoramic Research ds 上 发 表 的 有 关 人 脸 HA S 
了 这 一 阶段 的 人 脸 识别 被 当 作 一 


第 一 阶段 的 研究 。 


的 技术 主要 围绕 人 脸 


外 部 器 官 之 间 (如 了 眼镜、 鼻子 、 


因此 这 一 技术 也 被 和 


的 人 脸 识别 系统 。 


尔 为 基于 几何 特征 
该 系统 首先 手动 选择 眼睛 、 


ims AS J Lares 


(geometric feature based) 的 方法 。 
1966 年 ， 美 国 德 克 萨 斯 大 学 的 Bledsoe [0| P.1]] UJ 


点 计算 出 距离 或 角度 参数 值 ， 如 两 眼 瞳 和 孔 之 间 的 


间 的 距离 等 。 同 时 ， 为 
标准 化 的 处 理 。 其 后 ， 
交互 式 人 脸 识别 系统 。 

好 ， 但 特征 
比例 的 上 


点 的 选择 还 是 人 工 进行 的 。 
动 特征 提取 方法 ， FR H 
影 法 来 确定 人 脸 图 像 的 眼睛 、 
度 、 面 积 等 参数 值 来 得 到 人 脸 的 特征 向 量 


了 能 够 比较 不 同 尺 度 下 的 人 脸 图 像 ， 
Goldstein # 


贝尔 实验 室 的 Harmon、 


人 脸 图 像 进行 身份 认证 的 文章 。 他 从 让 REN AER 
的 工作 起 源 于 Bledsoe 和 Chan 于 1965 年 


Sith, Ali FATT A 


一 般 性 的 模式 识别 问题 来 研究 LO], AT AGA 
吉 构 特征 进行 展开 由 7 


BIS. 


PY HIS Hk ILES ARAIA = 
该 系统 还 将 所 得 到 的 特征 向 量 进 行 了 


17,[8 [19]. 


JLIRHIEZ E, WEI Y 26 — E BLA 
鼻子 、 嘴 部 以 及 下 颌 等 特征 点 ， 然 


然后 根据 这 些 特 征 


SA [PI] FAH T 


个 基于 特征 


该 系统 使 用 21 个 特征 值 来 构建 人 脸 识别 的 参数 向 量 。 虽 然 其 识别 效果 较 


1973 年 ， 卡 耐 基 


ET. 


a, AMH 


梅 隆 大 学 的 Kanade [23] 提出 了 基于 距离 
了 第 一 个 自动 的 人 脸 识别 系统 。 该 人 脸 图 像 识别 系统 使 
嘴 部 等 局 部 特征 ， 通 过 计算 不 同 特征 点 之 间 组 成 的 距离 、 角 
于 人 脸 图 像 的 比较 与 识别 


过 


EHE 


。 然 而 ， 上 述 基 于 几 


何 特征 的 方法 对 人 脸 图 像 有 严格 的 要 求 ， 比 如 人 脸 图 像 必须 为 正面 人 脸 图 像 ， 也 不 能 出 现形 变 或 
旋转 。 针 对 这 些 缺 陷 ， 哈 佛 大 学 Yuille 等 人 [p4 DS] 基于 Fischler 和 Elschlager [26] 的 工作 ， 提 出 
了 使 用 可 变化 的 参数 模型 来 表示 人 脸 特 征 的 方法 。 其 中 ， 每 个 特征 都 对 应 于 一 个 参数 模型 ， 每 个 
模型 构造 相应 的 能 量 函 数 ， 最 后 利用 梯度 下 降 法 来 寻找 能 量 函 数 的 最 优 直 ， 进 而 查找 出 各 部 分 的 
人 脸 特 征 。 
基于 几何 特征 的 人 脸 识 别 方法 的 优点 在 于 ,描述 人 脸 图 像 的 特征 向 量 十 分 简洁 ,物理 意义 明 
确 ， 易 于 理解 和 应 用 ， 对 光照 变化 不 敏感 ， 识 别 速度 快 。 日 是 由 于 这 种 算法 过 于 简单 芭 仅 利用 
了 面部 的 结构 信息 ， 忽 略 了 局 部 的 细微 特征 以 及 纹理 信息 ， 因 此 造成 了 所 需 信息 的 丢失 ， 是 一 种 
比较 粗 久 的 人 脸 表 达 。 而 且 ， 人 脸 二 维 图 像 几何 特征 以 及 特征 点 的 定位 其 实 很 不 容易 ， 往 往 出 现 
1 于 定位 不 精确 而 导致 特征 点 较 大 偏 移 的 现象 。 总 体 说 来 ， 这 种 方法 的 人 脸 识 别 精度 不 高 。 


3 imd (1991 4E — 1998 4E) 
二 阶段 人 脸 识 别 快 速 发 展 ， 出 现 了 一 系列 经 典 的 理论 与 算法 ， 是 人 脸 识 别 技术 的 快速 发 展 


期 山 
r 年 ， 美 国 麻 省 理工 学 院 的 Turk, Pentland 及 其 他 学 者 E pa) D8) 将 基于 统计 学 的 主 成 分 
分 析 (principal component analysis, PCA) 方法 引入 到 人 脸 识 别 中 ， 提 出 了 著名 的 Eigenface 方法 。 
PCA 也 被 称 作 KL 变换 (Karhunen and Loeve transformation) [29], s 原理 简单 ， 容 易 编 程 ， 速 度 
= 很 快 ， 并 且 识 别 效果 好 ， 可 以 解决 一 定 的 实际 问题 。 至 今 ， 仍 然 有 很 多 人 脸 识 别 方法 将 PCA 作 
~ 为 特征 提取 的 一 个 重要 预 处 理 步骤 。 然 而 PCA 方法 也 存在 着 一 些 不 足 。1、PCA 本 质 上 依赖 于 训 
O 练 图 像 和 测试 图 像 的 灰 度 相关 性 ， 所 以 算法 对 人 脸 图 像 的 亮度 、 偏 移 、 H 9 景 和 姿态 变化 的 适应 性 
N BEE; 2. PCA 对 小 样本 的 特征 提取 效果 还 可 以 ， XE 本 的 提取 性 能 却 并 不 理想 。 
LO 为 了 克服 PCA 的 缺陷 ，1996 4E Belhumeur 等 (BO, Bil] 结合 PCA 与 线性 判别 分 析 (linear 
C discriminant analysis, LDA) 提出 了 著名 的 Fisherface 方法 ， 不 同 于 无 监督 的 PCA，LDA [BO] 通过 
e 考虑 数据 自身 携带 的 类 别 标签 信息 进行 特征 提取 ， 是 一 种 有 监督 的 方法 。LDA 的 目标 是 ， 寻 找 
en 一 组 投影 向 量 ， 使 得 数据 投影 到 低 维 空间 后 ， 具 有 最 大 类 间 散 列 度 (between-class scatter) 和 最 小 
e 的 类 内 散 列 度 (within-class scatter) 。 正 因为 考虑 到 了 高 维 数据 所 携带 的 标签 信息 ，LDA 往往 能 优 
N 化 图 像 数 据 的 低 维 表示 3 Ba). 更 好 应 对 光照 、 姿 态 等 问题 。 但 LDA 方法 仍然 存在 着 不 足 ， 主 


要 表现 在 以 下 几 个 方面 。1，LDA 方法 要 求 所 观察 到 的 高 维 数据 必须 符合 高 斯 分 布 ， 然 而 人 脸 数 
据 未 必 符合 高 斯 分 布 ; P. HH BN Ha TRE BUE BE B P nj S] JE RP IE BE 只 能 有 C - 1^ (C 为 
训练 样本 的 类 别 数 )，LDA 方法 只 能 将 原始 数据 最 多 降 到 C — 1 维 ， 也 因此 LDA 不 能 直接 使 用 ， 
往往 结合 PCA 进行 特征 提取 ; 3， 小 样本 问题 (small sample size, SSS): 在 实际 应 用 领域 中 ， 训 练 
样本 的 特征 维度 D 远大 于 训练 样本 的 数量 N， 即 D o9 N， 从 而 容易 导致 类 内 散 列 度 为 奇异 算 
阵 。 然 而 毫 无 疑问 ，PCA M LDA 是 当时 重要 的 理论 成 果 。 随 后 大 量 沿 着 PCA 和 LDA 的 思想 路 
径 的 新 方法 被 提出 , 比如 基于 非 负 矩阵 分 解 (non-negative natrix factorization, NMF) [B4 BS]. 3&T- 
核 (kernel) 方法 Bq B7, BS] 等 的 多 种 子 空间 人 脸 识 别 算法 。 
在 此 阶段 , 还 涌现 了 其 他 一 些 重要 的 理论 与 技术 。1993 Æ, Brunelli 和 Poggio[B9]] 结合 实验 对 
比分 析 了 基于 结构 特征 的 人 脸 识 别 方法 ud od duode Na UNICUM PERE, 提出 基于 模板 匹 
配 的 方法 要 优 于 基于 结构 特征 的 方法 。 这 一 结论 很 大 程度 上 促进 了 基于 表 观 Cappearance- based) 
的 线性 子 室 间 建 模 和 基于 统计 模式 识别 技术 的 人 脸 识别 方法 的 发 民 l6]. 1996 和 年， 洛克菲勒 大 
学 的 Penev 和 Atick [40] 提出 了 局 部 特征 分 析 (local feature analysis, LFA) 方法 ， 该 方法 首先 利用 
PCA 建立 一 组 局 部 的 特征 v 量 ， 然 后 利用 稀疏 (sparsification) 技术 来 得 到 一 组 相关 性 最 少 且 附加 
有 拓扑 索引 的 特征 集合 ， 最 后 选择 一 组 核 函 数 来 表征 人 脸 的 局 部 特征 。LFA 方法 的 优点 是 ， 它 不 
仅 能 用 低 维 的 数据 表示 人 脸 空间 ， 而 且 克 服 了 PCA 等 方法 只 关注 全 局 而 忽略 人 脸 图 像 拓扑 结构 
以 及 忽略 人 脸 局 部 特征 (如 眼镜 、 鼻 子 、 嘴 部 等 ) 的 问题 。 
这 一 阶段 ， 较 有 影响 的 弹性 图 匹配 (elastic graph matching, EGM) [H1] 42] 43]] 也 被 提出 。EGM 
使 用 二 维 结构 的 Gabor 小 波 对 人 脸 图 像 进行 处 理 ， 将 人 脸 表 达成 由 若干 个 特征 点 构成 的 具有 一 
定 拓扑 结构 信息 的 人 脸 弹 性 图 。 弹 性 图 的 顶点 代表 面部 关键 特征 点 ， 其 属性 为 相应 特征 点 的 多 
分 辨 率 、 多 方向 的 局 部 特征 ， 弹 性 图 的 边 则 代表 不 同 特征 点 之 间 的 几何 关系 。 在 进行 图 匹配 时 ， 
要 在 待 识别 的 人 脸 图 像 上 进行 点 格 阵 的 全 局 搜索 和 局 部 搜索 ， 碍 找 最 相似 的 点 格 阵 的 匹配 。 该 
方法 的 优点 是 既 保 留 了 面部 的 全 局 结构 特征 ， 也 对 人 脸 的 关键 局 部 特征 进行 了 建 模 。 同 时 ， 小 波 
变换 受 光 照 、 表 情 、 图 像 尺 寸 等 因素 的 干扰 较 少 ， 因此 具备 定 的 鲁 棒 性 。 但 是 ， 该 方法 也 存在 
着 不 足 ， 因 为 匹配 过 程 需要 反复 比较 ， 所 以 计算 量 较 大 ， 识 别 速度 较 慢 。 

另外 ,柔性 形状 模型 (flexible appearance modely H4 HS ES 47, 48) 作为 人 脸 建 模 上 的 重要 模 
型 ， 也 在 这 一 阶段 被 提出 。 人 脸 的 形状 不 是 一 成 不 变 的 ， 同 一 个 人 的 人 脸形 状 在 不 同时 期 、 不 
同 姿态 下 都 会 有 所 变化 ， 而 固定 的 人 脸 模型 很 难 建 模 、 表 示 出 这 些 人 脸 变 化 。 因 此 ，Yuille 等 人 
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提出 了 使 用 参数 化 的 可 变 模型 技术 来 表示 人 脸 各 部 分 的 局 部 特征 ， 通 过 模板 的 偏 移 、 旋 
转 或 者 形变 等 操作 ， 来 得 到 模板 的 最 佳 匹配 。 而 Lanitis 等 人 [46] 47, 48] 基于 Yuille 等 人 的 思想 ， 
提出 了 成 熟 的 柔性 形状 模型 技术 。 该 技术 由 两 个 阶段 组 成 ; 训导 阶段 和 识别 阶段 建 模 阶段 首先 
得 到 人 脸 的 形状 模型 和 人 脸 的 灰 度 值 分 布 模型 ,然后 在 识别 阶段 ， 利用 上 一 阶段 得 到 的 形状 和 灰 
度 值 分 布 ， 进 行 身份 的 识别 。 


4 mn (1998 4E. — 2014 4E) 


一 阶段 是 人 脸 识 别 技术 的 成 熟 期 ， 主 要 针对 人 脸 识 别 中 姿态 、 光 照 、 表 情 、 噪 声 、 遮 挡 等 
"EPUM 以 及 第 二 阶段 涌现 的 算法 的 问题 ， 提 出 了 一 系列 新 的 算法 与 理论 。 
在 Eigenface 的 基础 上 ， 为 了 解决 光照 、 表 情 等 的 问题 ，Moghaddam 和 Pentland “ [49] 50) 
提出 了 概率 主 成 分 分 析 (probabilistic pricinpal component PPCA) 方法 。PPCA LIE 
人 脸 图 像 之 间 的 差异 时 ， 既 考虑 了 人 脸 的 不 同 导 致 图 像 差 异 的 可 能 性 ， 也 考虑 了 光照 、 表 情 科 等 因 
素 所 引起 的 差异 的 可 能 性 。 因 此 该 方法 对 人 脸 表 情 和 光照 的 变化 RA RANEE, 另外 ， 
些 研 究 者 注意 到 特 行 值 大 的 特 4 征 向 量 可 能 并 不 是 特征 提取 最 好 的 方向 。Cappelli 等 [51] 51] 于 是 提 
出 了 多 空间 KL 变换 ， 把 训练 集 分 割 成 多 个 不 同 的 子 集 ， 这 些 子 集 采 用 不 同 的 KL 变换 构造 不 
同 的 子 空 间 来 表示 不 同 的 子 模式 。 另 外 ， 传 统 PCA 方法 是 一 种 线性 方法 ， 难 以 发 现 高 维 非 线性 
结构 数据 的 内 在 结构 。Kim 等 [B6] 据 此 提出 了 核 主 成 分 分 析 (kernel principal component analysis, 
KPCA) 方法 ， 通 过 非 线 性 变换 转换 人 上 脸 图 像 的 特征 空间 ， 以 此 挖掘 高 维 数 据 内 在 的 非 线 性 结 
构 。 随 后 ， 另 外 一 些 PCA 的 扩展 方法 也 相继 提出 。Vasilescu 和 Terzopoulos [52] 提出 了 多 线性 子 
空间 (multi-linear space, MLS) 方法 ， 在 一 种 多 线性 框架 下 进行 子 空间 分 析 ， 利 用 张 量 分 解 算法 
N-node SVD， 在 多 个 相互 关联 的 特征 空间 上 进行 维 数 约 简 。Yang 和 Zhang [53] 提出 了 二 维 PCA 
(two-dimensional PCA) 的 人 脸 识 别 方法 ， 该 方法 首先 用 一 种 二 维 图 像 矩 阵 表 示人 脸 ， 然 后 根据 二 
维 图 像 窍 阵 构 建 出 协 方差 矩阵 ， 采 用 该 协 方差 矩阵 的 主要 特征 向 量 作为 表示 特征 ， 最 后 进行 人 
识别 。Cavalcanti 等 [54] 提出 了 Eigenbands 的 | ， 首 先 将 人 脸 图 像 分 Y fA IKE RI 
垂直 的 条 带 ， 然 后 采用 PCA 方法 为 每 一 条 带 抽取 特征 信息 。 甚 至 在 近 几 年 ，PCA 方法 仍然 持续 
有 人 研究 。Kadam [9] 将 PCA 和 离散 余弦 转换 (Gaede cosine transform, DCT) 结合 起 来 用 于 人 
脸 数据 降 维 , 实验 结果 显示 这 种 混合 方法 保证 识别 速度 的 同时 ， 能 获得 比 简单 PCA 更 高 的 准确 
率 。Bakhshi 等 人 [55] 先 使 用 SIFT(scale invariant feature transform) [56] 和 SURF(speeded sp robust 
features) [57] 提取 人 脸 图 像 的 特征 ， 之 后 使 用 PCA 处 理 图 像 ， 能 在 光照 、 姿 态 、 旋 转 等 条 件 下 
获得 更 高 的 识别 率 。Poon 等 [58] 通过 实验 检验 了 各 种 不 司 的 光照 不 变 技术 (illumination invariant 
techniques)， 发 现 其 中 一 种 Gradientfaces 的 技术 在 数据 预 处 理 阶段 结合 PCA， 能 显著 提升 人 脸 识 
别 准确 率 。Barnouti 和 N.H. (59] 提出 了 一 种 BP 神经 网 络 、PCA 和 DCT 的 混合 方法 。 其 中 ，BP 
神经 网 络 结 合 PCA 能 更 容易 识别 人 脸 ，DCT 能 压缩 人 脸 数据 并 提升 识别 速度 。 
在 Fisherface 的 基础 上 , 为 了 解决 LDA 的 小 样本 问题 ，Chen & [60] 提出 了 一 种 新 的 LDA 算 
法 于 求 取 类 内 散 列 度 和 矩阵 等 空间 中 的 最 优 判 别 矢量 (optimal discriminant vector), FFAG J Be 
的 效果 。Wang 和 Tang [61] 采 用 随机 子 空 间 和 融合 的 方法 用 于 改进 Fisherface 和 N-LDA(Nullspace 
LDA) 算法 。 他 们 还 提出 基于 一 种 概率 视觉 模型 的 双重 空间 LDA 算法 (62), 用 于 解决 小 样本 问题 。 
Howland 和 Ye 等 人 [63] 64] 采用 GSVD (generalized singular value decomposition) 算法 来 解决 传统 
LDA 算法 中 的 散 列 度 和 矩阵 奇异 的 问题 Lu 等 (65, 66, 67] 将 核 方 法 引入 到 LDA 提出 了 基于 核 
的 LDA 算法 用 于 解决 人 瞪 识别 中 的 人 脸 模式 分 布 的 非 线性 和 小 样本 问题 。 Jing ^5 [68] 将 非 相关 
最 优 判 别 矢 量 和 Fisherface 结合 , 用 于 改进 传统 的 LDA 算法 。Yang 等 [69] i 69] 提出 了 一 种 局 部 特征 判 
别 分 析 的 方法 来 解决 小 样本 问题 ,Liu 等 出 刀 FQPF 贡 采用 余 弱 核 函数 来 提高 判别 分 类 的 能 力 , 同时 
采用 基于 几何 的 特征 向 量 选择 机 制 来 减少 和 判别 分 析 算 法 的 计算 复杂 度 。 甚至 在 最 近 几 年 也 提 出 
了 LDA 的 改进 算法 。Murtaza 等 人 [72] 提出 了 AMFC-LDA(adaptive margin fisher's criterion linear 
discriminant analysis) 算法 来 克服 传统 LDA ATE E/E Jl) (maximum margin criterion, MMC) 的 
问题 。AMFC-LDA 算法 不 再 存在 小 样本 问题 ， 不 仅 拥有 较 低 的 错误 拒绝 率 (false rejection rate) 和 
背 误 接受 率 (false acceptance rate), 而 且 计 算 复杂 度 也 得 到 一 定 程度 的 降低 ， 同 时 收敛 速度 更 快 。 
传统 的 人 脸 识别 方法 大 多 建立 在 人 脸 空 间 线性 可 分 的 假设 下 ， 但 从 2000 EFt, BAAN 
究 表明 人 脸 图 像 可 能 位 于 或 近似 地 位 于 嵌入 到 高 维 空间 的 低 维 流 形 上 (173), (74) (75), 76]. fest 
性 方法 不 能 表达 出 人 脸 空 间 的 凸 起 与 凹 进 ， 这 成 为 了 人 脸 识 别 突破 的 瓶颈 问题 。 于 是 ， 流 形 学 习 
(manifold learning) [74 [78] 技术 开始 被 引入 到 人 脸 识别 中 。 eas t e 是 挖 昌 高 维 数 据 的 内 
在 规律 以 及 本 征 结构 。 流 形 学 习 所 得 到 的 子 空间 被 称 为 嵌入 空间 ， 它 是 一 种 非 线性 空间 ， 并 保持 
了 原始 样本 空间 的 全 局 和 局 部 拓扑 结构 ， 接 近 于 人 类 的 视觉 感知 系统 。 相 比 于 线性 空间 ， 非 线性 
空间 对 人 脸 n E 具 有 更 好 的 表达 。 基于 流 形 学 习 的 人 脸 识别 方法 可 分 为 无 监督 、 有 监督 和 半 监 
督 三 类 。 表 四 列 出 了 一 些 基于 流 形 学 习 的 代表 算法 。 
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类 别 代表 算法 
等 距离 特征 贤 射 《Isometric Feature Mapping, ISOMAP) [74] 
ERRERA (Locally Linear Embedding, LLE) [75] 
拉 普 拉 斯 特征 映射 (Laplacian Eigenmaps, LE) 
局 部 保持 投影 (Local Preserving Projections, LPP) 
无 监督 判别 投影 CUnsupervised Discriminant Projection, UDP a 
邻 域 保持 嵌入 (Neighborhood Preserving Eebedding, NPE) 
交 邻 域 保持 投影 (Orthogonal Neighborhood Preserving Projections, ONPP ) 
无 监督 多 视角 邻 域 保 持 投 影 CMulti-View 
Neighborhood Preserving Projections, Multi-NPP) | 
Mii tee Bux CSparsity Preserving Projections, SPP) 
图 优化 局 部 保持 投影 (Graph 
Optimized Locality Preserving Projections, GoLPP ) [86] 
WRA REER (Graph Optimization 
for Dimensionality Reduction with Sparisity Constrints, GODRSC) [87] 
自 适应 图 维 数 约 简 (Dimensionality Reduction with Adaptive Graph, DRAG) [88] 
边缘 费 舍 尔 分 析 (Marginal Fisher Analysis, MFA) [89] 
最 大 边缘 准则 (Maximum Margin Criterion, MMC) [90] 
局 部 敏感 判别 分 析 (Locality Sensitive Discriminant Analysis, LSDA) [BJ] 
于 一 AN (Local Discriminant Embedding, LDE) [92] 
; 局 部 判别 投影 (Local Discriminant Projections, LDP) [P3] 
监督 局 部 保持 投影 (Supervised Localitiy Preserving Projections, SLPP) 
多 流 形 判别 分 析 (Multi-Manifold Discriminant Analysis, MMDA) [P5] 
判别 多 流 形 分 析 CDiscriminative MultimanifoldAnalysis, MDA) [96] 
L ME ABR TERRA (Multiple 
Manifold Locally Linear Embedding, MM-LLE) [97] 
ER AG ~CSemi-supervised Discriminant Analysis, SDA ) [98] 
半 监 督 子 流 形 判 别 分 析 (Semi-supervised 
半 监 督 Sub-manifold Discriminant Analysis, SSMDA) [99] 
J Tum 半 监 督 局 部 费 舍 尔 判 别 分 析 CSemi-supervised 
= Local Fisher Discriminant Analysis, SELF) [100] 
VN 多 流 形 半 监督 学 习 (Multi-manifold Semi-supervised Learning, MMSSL) [0 也 
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#1: 基于 流 形 学 习 的 代表 算法 。 


尽管 上 述 大 量 的 线性 和 非 线性 方法 在 人 脸 识 别 中 已 取得 了 较 好 的 性 能 ， 但 真实 情境 下 它们 
易 受 人 脸 图 像 的 姿态 、 光 上 照 、 表 情 等 的 变化 的 影响 。 本 质 上 来 说 ， 上 述 方法 都 是 基于 人 脸 
息 的 人 脸 识 别 方法 ， 得 到 的 人 脸 首 述 特征 被 成 为 全 局 特征 。 全 局 特征 是 指 其 特征 向 量 
维 都 包含 了 人 脸 图 像 上 所 有 部 分 (甚至 所 有 像素 ) 的 信息 , 因此 反映 的 是 人 脸 的 整体 属性 [LO]. 
与 此 相反 ， 另 一 类 人 脸 识别 方法 得 到 的 人 脸 描述 特征 被 称 为 局 部 特征 。 PARKERS ERN 对 
久 着 人 脸 图 像 上 的 一 个 局 部 区 域 , 因此 这 类 方法 侧重 于 提取 人 脸 的 细节 特征 帆 02。 局 部 特征 对 
人 脸 的 光照 、 表 情 和 遮挡 等 变化 不 敏感 , 因此 被 越 来 越 多 地 应 用 于 人 脸 表 示 中 。Gottumukkal 等 
[103] 提出 模块 化 主 成 分 分 析 (modular PCA, ModPCA) ， 其 首先 将 人 脸 图 像 划分 为 若干 个 小 的 子 
图 像 或 子 模 式 ， 然 后 将 所 有 子 模式 看 作 整 体 并 利用 PCA 提取 子 模式 的 特征 ， 最 后 所 有 子 模 式 集 
的 特征 整合 成 全 局 特征 用 于 人 脸 的 识别 。 但 ModPCA 忽略 了 子 模式 空间 结构 的 位 置信 息 ， 因 此 
Chen 和 Zhu 提出 了 子 模块 主 成 分 分 析 (sub-pattern based PCA, SpPCA)。 不 同 于 ModPCA 将 
所 有 子 模式 看 成 整体 ，SpPCA 将 原始 人 脸 图 像 相 同位 置 的 所 有 子 图 像 组 成 子 模式 集 ， 并 对 每 个 
子 模式 集 利用 PCA 提取 子 特征 向 量 集 。 后 续 还 提出 了 自 适 应 加 权 子 模式 主 成 分 分 析 (adaptively 
weighted sub-pattern PCA, Aw-SpPCA) [105] 和 交叉 子 模式 相关 主 成 分 分 析 (cross-sub- -pattern based 
PCA, SubXPCA) [L06]; HF SpPCA 方法 的 改进 。 当 然 除 了 PCA， 另 外 一 些 常用 的 局 部 特征 方法 
有 : 局 部 二 值 模式 (local binary pattern, LBP) [107]. Gabor 小 波 [[108, [109] ig. Fey DAE fa B PE) HE 
(local non-negative matrix factorization, LNMF) [111 [L12] 等 。 值 得 一 提 的 是 , 基于 Gabor 小 波 的 人 
脸 识别 方法 (比如 Gabor-fisher classifier [108], local Gabor inary pattern [/109], weighted sub-Gabor 
MO 在 很 多 公开 数据 库 上 和 性 能 评测 中 取得 了 非常 好 的 结果 , 受到 了 众多 研究 者 的 关注 。Gabor 
小 波 也 因此 被 认为 是 一 种 非常 有 效 的 人 脸 表 示 方 法 。 
2006 年 , Donoho 等 人 提出 了 压缩 感知 (Compressive Sensing, CS) 理论 。 2009 年 , Wright 
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等 人 将 CS 理论 应 用 于 人 脸 识 别 问题 中 并 提出 了 稀 玻 表示 分 类 (sparse representatin based 
classification, SRC) 的 方法 。 这 类 方法 也 被 称 为 稀 玻 编码 (sparse coding) TE. Wa, KE 
编码 方法 开始 被 提出 。 基 于 稀 玻 编码 的 人 脸 识 别 方法 从 另外 一 个 新 的 角度 来 看 待 和 处 理 人 脸 识 
别 问题 ， 其 基本 思想 为 : 人 脸 测 试 样本 可 以 由 若干 个 训练 样本 近似 表达 ， 且 测试 样本 属于 该 近 
似 表 达 中 占 比 最 大 的 类 别 的 概率 最 大 。 由 于 在 测试 样本 和 训练 样本 之 间架 设 了 一 座 桥梁 ， 这 类 
方法 往往 能 取得 优异 的 性 能 。 即 使 在 脸 部 存在 遮挡 等 复杂 情况 下 ， 稀 玻 编 码 方法 仍 能 取得 较 好 
的 人 脸 识 别 性 能 。 也 正 因此 ， 该 方法 被 评价 为 人 脸 识别 领域 的 重大 突破 之 一 。 稀 玻 编码 算法 大 
致 分 为 五 类 册 1 引 : ERI (reconstructive sparse coding), 有 监督 稀 朴 编码 (supervised sparse 
coding), 判别 稀 疏 编码 (discriminative sparse coding), 417% ftti fi (structured sparse coding) 和 图 
TENE id fid (graph regularized sparse coding). 


: ERAI: 这 类 方法 设计 不 同 的 优化 算法 来 学 习 最 优 字典 ， 通 过 最 小 化 数据 重 构 误 差 
(data reconstruction error)， 来 找到 相应 的 稀 玖 表达 系数 。 代 表 性 算法 有 [匹配 追踪 (matching 
pursuit, ur Bg 正 交 匹配 追踪 (orthogonal matching pursuit, OMP) [LIJ], 26 Ex (basis 
pursuit, BP) [118] 45. 


。 有 监督 系数 编码 : 这 类 方法 通过 人 脸 图 像 高 维 数据 自身 携带 的 标签 类 别 信息 来 学 习 一 个 超 

完备 字典 (over-completed dictionary) 5i fH NE RIRKA RŽ. Plam 55 [119] 提出 一 种 字典 如 
构 与 分 类 器 学 习 的 联合 框架 ， 来 考虑 类 别 标签 和 线性 预测 分 类 误差 。Zhang 等 将 字 
学 习 与 分 类 器 参数 学 习 整 合 到 一 个 目标 函数 中 ， 提 出 了 判别 KSVD(discriminative K-SVD, 
v D-KSVD). Jiang 等 进一步 整合 数据 的 类 别 标签 信息 和 分 类 误差 ， 对 D-KSVD 方法 进 
a 行 了 扩展 ， 提 出 了 类 别 标签 一 致 K 均值 奇异 分 解 (abel consistent KSVD, LC-KSVD) 算法 。 


。 判别 稀 玻 编码 : 不 同 于 有 监督 稀 玖 编码 方法 直接 利用 数据 的 类 别 标签 信息 ， 这 类 方法 将 类 
可 分 性 准则 (class separability criterion) 整合 到 稀 玻 编码 目标 函数 中 。 比 较 常 用 的 类 可 分 性 
准则 有 : softmax 函数 由 2 习 、 费 舍 尔 判别 准则 (Fisher discrimination criterion) 、Hinge 
损失 函数 等 。 


。 ZUM LAS: 这 类 方法 通过 人 脸 图 像 的 先 验 知识 来 修改 惩 昼 约束 项 ， 促 使 学 到 的 特征 按 
照 一 定 的 规则 排列 ， 从 而 使 其 学 到 具有 一 定 结构 特性 的 字典 。 结 构 稀 玻 编码 主要 利用 组 稀 
下 (group sparse) [125] 与 层次 稀疏 (hierarchical sparse) SOS EA t Bt i 1 Dy VASE AT 
展 。 同 时 ，Jia 等 [127] JY EE AE ii 4 A 10/8 5 2]. (multi-view learning) 框架 中 ， 以 期 
学 习 到 一 个 潜在 的 子 空间 ; Zhang 45 [[28] 在 人 脸 识 别 任务 中 ， 则 将 多 视角 分 类 问题 看 成 联 
CX TES 


。 REMER: 38 2S7 1A E ETE t A SERE PAC AP E] BE S LE DU ASIDE BUR EI Je 
部 几何 结构 关系 。Zheng 等 [129] 将 图 拉 普 拉 斯 正则 项 (Laplacian regularization, LR) 引入 到 
稀 玻 编码 框架 中 ， 用 于 保持 数据 分 布 的 局 部 几何 结构 。Zheng 等 基于 二 阶 海 森 能 量 
(second-order Hessian energy) $E Hi T HARTE i nta (Hessian sparse coding) 来 更 好 地 保持 数 

= 据 的 局 部 拓扑 关系 。Gao 等 利用 超 图 (hypergraph) 相对 于 传统 图 模型 能 更 有 效 地 表达 

© FETE IHR AR RPE, pehi E p i E RU Ae ift iS (hypergraph Laplacian sparse 
coding) 来 保持 特征 空间 局 部 一 致 性 。 


稀 玻 编码 方法 与 常规 降 维 方法 实质 上 具有 相似 的 目标 。 即 ， 为 样本 提供 一 个 某 种 意义 上 的 最 优 
描述 ， 以 获得 较 高 分 类 正确 率 。 但 稀 疏 编码 方法 不 同 于 常规 降 维 方法 的 主要 之 处 在 于 : 常规 降 维 
方法 仅仅 依据 所 有 训练 样本 来 为 这 些 训练 样本 产生 最 优 描述 ， 而 据 此 对 测试 样本 产生 的 描述 结 
果 却 不 一 定 最 优 ; 然而 ， 稀 玻 编码 方法 是 同时 利用 所 有 训练 样本 与 当前 测试 样本 来 为 当前 测试 样 
本 提供 一 个 最 优 描述 。 


“er y 


5 第 四 阶段 (2014 年 - 至 今 ) 


在 2014 年 之 前 , 人 脸 识 别 的 主要 技术 路 线 是 “人 造 或 基于 学 习 的 局 部 描述 子 (如 LBP, Gabor) 
+ 度量 学 习 (distance metric learning, DMIL)”。 但 从 2014 年 开始 ， 大 量 基于 深度 学 习 的 人 脸 识 别 方 
法 被 相继 提出 ， 人 脸 识别 技术 的 主流 技术 路 线 开 始 转 为 “深度 学 习 + 人 脸 图 像 大 数据 *。 基 于 深 
度 学 习 的 人 脸 识 别 方法 近年 来 呈现 出 两 种 重要 的 趋势 。 一 是 深度 学 习 网 络 不 断 变 大 变 深 二 是 
带 标注 的 人 脸 训练 数据 不 断 增 多 ， 大 数据 成 为 提升 人 脸 识 别 性 能 的 关键 。 

2014 年 ，Facebook 人 工 智能 实验 室 的 Taigman ^5 [1132] 提出 了 DeepFace 网 络 ， 在 户外 标记 
人 脸 数据 库 (Labeled Faces in the Wild, LFW) 上 取得 了 97.25% 的 准确 率 , 首次 接近 人 类 水 平 ， 


可 谓 是 基于 深度 学 习 的 人 脸 识 别 方法 的 奠基 之 作 。DeepFace 一 共 八 层 网 络 结构 ; 前 三 层 是 传统 
的 CNN 结构 ， 用 于 提取 低层 次 的 特征 ， 比 如 简单 的 边 和 纹理 ， 接 下 来 三 层 是 参数 不 共享 的 卷 积 
核 ， 用 于 提取 不 同 区 域 不 同 的 统计 特征 ; 最 后 两 层 是 全 连接 层 ， 作用 是 捕捉 人 脸 图 像 不 同位 置 的 
特征 之 间 的 相关 性 。DeepFace 在 训练 时 使 用 了 4000 个 人 的 总 共 4 百 万 张 图 片 。 另 外 ， 与 之 后 的 
深度 学 习 方法 相 比 ，DeepFace 最 大 的 不 同 在 于 在 训练 神经 网 络 前 ， 使 用 了 3D 对 齐 方法 来 解决 
传统 2D 对 齐 不 能 解决 的 面 外 旋转 (out-of-plane rotations) 问题 。 从 2014 年 开始 , 香港 中 文大 学 多 
媒体 实验 室 孙 福 等 人 先后 提出 了 一 系列 深度 学 习 人 脸 识别 网 络 [I37]. 5j DeepFace 
不 同 的 是 ， 这 类 网 络 由 一 系列 相同 的 小 网 络 融合 而 成 。 每 个 小 网 络 的 输入 都 是 人 脸 图 像 经 过 多 
尺度 多 通道 多 区 域 切 分 后 的 一 个 patch， 之 后 每 个 patch 学 到 的 特征 向 量 通过 整合 最 后 得 到 整体 
人 脸 图 像 的 特征 向 量 。 在 他 们 最 先 提出 的 DeepID(deep hidden ny features) 网 络 中 ， 每 
个 小 网 络 由 4 个 卷 积 层 、3 个 pooling 层 和 两 个 全 连接 层 组 成 ， 总 共 100 个 小 网 络 。 在 LFW 数 
据 集 上 取得 了 97.45% 的 准确 率 。DeepID2 网 络 [135] EXT DeepID 的 基本 思路 ， 但 在 学 习 特 征 
的 时 候 ， 该 网 络 不 仅 考 虑 了 分 类 准确 率 ， 还 考虑 了 类 间 差 距 。 有 具体 做 法 就 是 在 目标 函数 中 添加 
类 间 差 距 一 项 。 于 是 在 网 络 训练 时 ， 一 要 最 小 化 类 内 变化 ， 二 要 最 大 化 类 间 差 别 。DeepID2 一 共 
200 个 小 网 络 ， 在 LFW 数据 集 上 取得 了 99.15% 的 准确 率 。 在 DeepID2+ [136] F, $t AX 
继续 修改 了 网 络 结构 ， 还 增加 了 对 卷 积 神经 网 络 的 大 量 的 分 析 ， 发 现 卷 积 神经 网 络 对 人 脸 图 像 
k 有 适度 稀疏 性 、 特 征 选 择 性 和 遮挡 鲁 棒 性 等 特性 。DeepID2+ 由 25 个 小 网 络 组 成 ， 在 LFW 数 
据 集 上 取得 了 99.47% 的 准确 率 。 随 后 提出 的 DeepID3 ee 
DeepID3 net2. m DeepID2+, DeepID3 借鉴 了 VGG-Net [38] 的 思想 ， 网 络 层 数 更 多 ， 变 得 
SIR. DeepID3 还 借鉴 了 GoogLeNet 的 思路 ， 引 入 了 Inception 层 ， 在 网 络 中 将 两 个 连续 的 
卷 积 层 直接 相连 ， 使 得 整个 网 络 具 有 更 大 的 感受 野 (respective field) 和 更 复杂 的 非 线性 转化 ， 同 
时 还 能 限制 了 参数 的 数量 。 ee fr LWF 数据 集 取 得 了 99.53% 的 成 绩 。 
另外 ， 为 了 使 得 卷 积 神经 网 络 训 练 得 更 加 充分 ， 这 一 系列 网 络 都 在 训练 时 通过 使 用 外 部 数据 集 
CelebFaces+ 来 加 大 训 红 数据。 

2015 年 , 谷歌 公 司 的 Schro 企 等 山 40 提出 了 FaceNet 算法 。 该 算法 利用 三 元 组 损失 函数 进行 
网 络 训练 以 直接 将 人 脸 图 像 映射 到 欧 几 里 得 空 x 间 ， 空 间 的 距离 代表 了 人 脸 图 像 的 相似 性 。 只 要 
该 映射 空间 生成 ， 人 脸 识 别 、 验 证 和 聚 类 等 任务 都 可 以 一 起 轻松 完成 。FaceNet 使 用 了 2 亿 张 人 
pl s Dus M HE, HEAR] Liu SA 
1) 提出 了 一 种 两 步 学 习 方法 ， 首 先 利 用 multi-path 深度 CNN 网 络 在 人 脸 不 同 区 域 进行 特征 提 
i 然后 利用 深度 度量 量 学 习 (deep metric learning) 将 前 一 阶段 学 到 的 特征 向 量 降 到 128 维 。 该 算 
法 在 18000 人 的 120 万 人 脸 数 据 上 进行 训练 ， HUET LEW 数据 集 99.77% 的 准确 率 。 另 外 ， 腾 
WAT [i42], WAAT [143] 等 也 都 提出 了 自己 的 基于 深度 学 习 的 算法 。 

上 述 这 些 成 果 ， 几 乎 宣告 了 LEW 数据 集 从 2008 年 到 2015 年 以 来 长 达 八 年 的 性 能 竞赛 的 结 
Wo LFW 数据 库 是 真实 条 件 下 的 人 脸 识别 问题 的 测试 基准 ， 但 对 于 实际 应 用 中 的 光照 、 对 比 度 、 
抖动 、 焦 点 、 模 糊 、 遮 挡 、 分 辨 率 、 姿 态 等 影响 人 脸 识别 的 复杂 因素 [9] 依然 没有 得 到 很 好 的 覆 
盖 。 因 此 ， 近 年 来 此 更 具有 挑战 性 的 人 脸 数 据 库 开 始 发 布 ， 如 IJB-A 数据 库 山 4 和 ND、MegaFace 
数据 库 [L45] 和 微软 百 万 名 人 数据 库 等 。 近 年 来 的 人 脸 识别 的 万 i 始 逐 渐 聚 焦 于 这 些 
更 具 挑 战 性 的 实际 应 用 场景 。2016 年 ， 南 加 州 大 学 Iacopo Masi 等 人 [147] 提出 一 种 解决 人 脸 识 
别 中 大 姿态 变化 问题 的 方法 。 不 同 于 当前 其 他 大 部 分 利用 单一 MERETUR AC RC HE SEA 
全 矫正 来 学 习 姿 态 不 变性 的 方法 ，Iacopo Masi 等 人 通过 使 用 五 个 指定 角度 模型 和 演 染 人 脸 图 片 
的 方法 来 处 理 大 姿态 变化 。 该 方法 在 IJB-A 数据 库 进 行 评测 ， 取 得 了 不 错 的 效果 。 中 科 院 计算 所 
Meina Kan ^5 A [[148] 针对 解决 人 脸 识别 中 的 跨 视 图 或 跨 姿态 问题 页 也 提出 对 应 的 解决 办 法 。 他 们 


尝试 移 除 人 脸 数 据 之 间 的 跨 模 态 差异 性 ， 并 且 寻 找 跨 模 态 之 间 的 非 线 性 的 差异 性 和 模 态 不 变性 
表达 。 

总 体 说 来 ， 这 一 阶段 是 人 脸 识别 的 高 潮 期 ， 人 脸 识别 因为 深度 学 习 开 始 进入 一 个 新 的 时 代 。 
0 总 结 吉 与 展望 


作为 生物 特征 识别 的 典范 ， 人 脸 识别 经 过 几 十 年 的 发 展 ， 已 经 逐渐 变 得 实用 ， 基 于 人 脸 识别 
的 商业 公司 也 层出不穷 。 本 文 回 顾 了 人 脸 识别 在 过 去 五 十 多 年 的 发 展 历史 ， 介 绍 了 人 脸 识 别 在 
各 阶段 所 取得 的 成 果 和 面临 的 挑战 。 特 别 是 近年 来 深度 学 习 使 得 人 脸 识 别 得 准确 率 达 到 了 新 的 
高 度 。 但 未 来 基于 深度 学 习 的 人 脸 识 另 上 的 研究 还 有 许多 吸 须 待 解决 的 问题 与 挑战 

C1) 从 无 标注 的 数据 里 学 习 

大 数据 已 经 成 为 基于 深度 学 习 的 人 脸 识别 的 标 配 ， 上 百 万 的 人 工 标注 的 数据 已 经 成 为 人 脸 
识别 性 能 提升 的 必要 条 件 。 然 而 , 标注 数据 的 获取 却 是 十 分 困难 、 十 分 昂贵 的 。 因此 , 当前 深度 学 
习 的 一 个 前 沿 研究 热点 就 是 如 何 从 无 标注 的 数据 里 进行 学 习 。 目前， 生成 式 对 抗 网 络 (Generative 


Adversarial Nets, GANs) [149] 与 对 偶 学 习 (dual learning) [50] 有 望 在 此 问题 上 获得 一 些 突破 。 
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(2) 降低 模型 的 大 小 
前 ， 基 于 深度 学 习 的 人 脸 识 别 模型 大 小 一 般 在 SOOM 以 上 ， 甚 至 是 上 G 的 大 小 。 这 样 的 模 
以 在 手机 等 移动 设备 上 使 用 。 因 此 ， 如 何 把 大 模型 变 成 小 模型， 降低 设备 内 存 或 存储 空间 的 
以 及 降低 设备 的 能 耗 ， 是 当前 基于 深度 学 习 的 人 脸 识 别 的 一 个 努力 的 方向 。 
(3) 更 快速 有 效 的 训练 方法 
大 数据 与 大 模型 是 深度 学 习 人 脸 识别 方法 的 支柱 ， 但 大 数据 与 大 模型 带 来 的 一 个 问题 是 大 
算法 训练 的 计算 量 大 大 增加 ， 往往 需要 几 块 甚至 上 十 块 最 先进 的 GPU 学 习 训 练 几 周 甚至 
的 时 间 。 这 对 于 模型 的 调 参 来 说 是 一 个 极其 困难 的 事情 。 因 此 ， 如 何 设计 更 高 级 、 更 快速 、 
效 的 算法 ， 是 基于 深度 学 习 的 人 脸 识别 算法 的 又 一 挑战 。 
(4) 小 样本 学 习 
大 数据 是 基于 深度 学 习 的 人 脸 识别 方法 的 性 能 提升 的 关键 ， 但 是 ， 基 于 大 数据 的 学 习 方 式 
类 的 智能 很 不 一 样 。 人 往往 能 从 小 样本 进行 学 习 ， 具 备 举一反三 、 领 域 迁移 的 能 力 。 人 对 于 


DH 


— 
规则 、 
逻辑 ! 
[151] 


个 人 的 人 脸 的 识别 ， 往 往 只 需要 几 张 照片 就 能 准确 分 类 。 原 因 在 于 ， 人 经 过 有 限 的 名 练 ， 结 合 


知识 、 经 验 ， 能 够 应 付 各 种 复杂 的 情况 。 但 是 当前 基于 深度 学 习 的 人 脸 识别 方法 并 不 具备 
思考 、 联 想 和 推理 等 能 力 ， 必 须 依 靠 大 数据 来 覆盖 各 种 可 能 的 情况 。 因 此 ， 正 如 张 钱 教授 
所 说 ， 知 识 驱动 与 数据 驱动 的 结合 ， 或 许 是 人 工 智能 的 突破 点 之 一 。 
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